Anthropic 研究发现:仅需少量污染文档即可对 LLM 实施投毒
Anthropic 的 Alignment Science 团队发布最新研究,直指大语言模型训练过程的投毒攻击。实验涵盖了多种模型规模和数据集,发现仅需在预训练数据中加入 250 条恶意样本,就足以植入一个“后门”漏洞。Anthropic 得出的结论是,随着模
llm anthropic 投毒 研 anthropic研究 2025-11-16 10:32 1
Anthropic 的 Alignment Science 团队发布最新研究,直指大语言模型训练过程的投毒攻击。实验涵盖了多种模型规模和数据集,发现仅需在预训练数据中加入 250 条恶意样本,就足以植入一个“后门”漏洞。Anthropic 得出的结论是,随着模
llm anthropic 投毒 研 anthropic研究 2025-11-16 10:32 1